## Loading required package: s20x
在为时间序列数据建模的时候,分解成四个成分可以帮助理解和量化数据随时间的变化 例如:我们的模型可以如下:
\[Y_t = T_t + C_t + S_T + R_t\] * 我们可以将这几个成分重新合并成一个新模型来做预测,但这不是理想的方法。
解读:
解读:
解读:
分解图:
要解决的问题:
解决的方法:
$S_t = \alpha Y_t + (1 - \alpha) S_{t-1}$
其中:
平滑常量$\alpha$越小,结果序列越平滑
之所以叫指数平滑是因为距离现在越远的观察值其权重随时间指数级的变小(exponentially smaller)
表示如下:
$S_t = \alpha Y_t + \alpha (1 - \alpha) Y_{t-1} + \alpha (1 - \alpha)^2 Y_{t-2} + \cdots + (1-\alpha)^{t-1} Y_1$
从等式的左往右,随着t变得非常大,表达式的系数变得更小(以指数速度 at an exponential rate)
* 平滑后的序列有赖于之前的所有值,其中离现在最近的值的权重最大
* 指数平滑需要大量的观测值
* 以上指数平滑的基本形式不适合存在趋势或者季节性的数据
* 指数平滑在R中用 HoltWinters 函数
* `HoltWinters(data.df, alpha = x, beta = FALSE, gamma = FALSE)`
$\alpha$ 由x来制定,beta 和 gamma 用在有趋势和季节性的时候
* 实际上我们可以让HoltWinters来指定\(\alpha\),它通过最小化均方预测误差来确定。
在predict 中调用 n.ahead 参数 * 这个模型似乎不是很好,对数据取对数来去掉向右歪斜,同时避免第
## Time Series:
## Start = 1943
## End = 1957
## Frequency = 1
## fit upr lwr
## 1943 343.7816 929.1857 127.1928
## 1944 343.7816 931.5911 126.8644
## 1945 343.7816 933.9966 126.5377
## 1946 343.7816 936.4020 126.2126
## 1947 343.7816 938.8074 125.8893
## 1948 343.7816 941.2129 125.5675
## 1949 343.7816 943.6184 125.2474
## 1950 343.7816 946.0239 124.9289
## 1951 343.7816 948.4296 124.6121
## 1952 343.7816 950.8353 124.2968
## 1953 343.7816 953.2411 123.9831
## 1954 343.7816 955.6470 123.6709
## 1955 343.7816 958.0531 123.3604
## 1956 343.7816 960.4593 123.0513
## 1957 343.7816 962.8657 122.7438
最简单的就是检查残差的自相关函数图(ACF) 首先要明确用回归模型分析时间序列的策略:
## Analysis of Variance Table
##
## Response: log(airpass.df$passengers)
## Df Sum Sq Mean Sq F value Pr(>F)
## time 1 25.1233 25.1233 7143.582 < 2.2e-16 ***
## month 11 2.2843 0.2077 59.047 < 2.2e-16 ***
## Residuals 131 0.4607 0.0035
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
p-value可以看成指示性的,因为不满足独立性假设。
* 看残差图 二次方的?
* 重新拟合
## Analysis of Variance Table
##
## Response: log(airpass.df$passengers)
## Df Sum Sq Mean Sq F value Pr(>F)
## time 1 25.1233 25.1233 10813.900 < 2.2e-16 ***
## month 11 2.2843 0.2077 89.386 < 2.2e-16 ***
## I(time^2) 1 0.1587 0.1587 68.307 1.409e-13 ***
## Residuals 130 0.3020 0.0023
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
* 这回看起来好多了,相对恒定而且没有趋势了 * 但残差对时间的图表现出非独立性 4. 残差是否有自相关性?
线性相关系数, \(\rho\),通常被当做相关性,是衡量两个随机变量\(X 和 Y 之间的线性关系,其中 0<\rho<1\)
\(如果 \rho = 0 则X和Y是完全不相关\)
在简单线性回归中样本的相关系数: \[r = \rm sign(\beta_1) \sqrt{R^2}\]
例如:h=1时,我们指的相关性是存在于时间t和时间t+1的观测值的相关性